선형 예측 부호화

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

선형 예측 부호화(LPC)는 신호의 미래 값을 과거 값들의 선형 조합으로 예측하여 신호를 효율적으로 부호화하는 기술이다. 1940년대 노버트 위너의 연구를 시작으로, 1970년대 비슈누 아탈과 만프레드 R. 슈로더에 의해 발전되었으며, 음성 부호화 및 합성 분야에서 널리 사용된다. LPC는 음성 신호를 소스-필터 모델로 분석하여 포먼트를 추정하고, 잔차 신호를 생성하며, 이를 통해 음성 압축, 무손실 오디오 코덱, 그리고 VoIP 기술의 기반이 되었다. LPC는 예측 부호화의 한 유형으로, 과거 시계열을 기반으로 현재 값을 예측하고, 예측 오차인 잔차를 부호화하여 신호를 압축한다. LPC는 스펙트럼 엔빌로프 정보를 전송하는 데 사용되며, 전송 오류에 대한 내성을 높이기 위해, 선 스펙트럼 쌍(LSP) 분해와 같은 다양한 계수 표현 방식을 사용한다.

더 읽어볼만한 페이지

손실 압축 알고리즘 - JPEG
JPEG은 정지 화상의 디지털 압축 및 코딩을 위한 국제 표준이자 이를 만든 위원회의 이름으로, 1992년 최초 표준 발표 이후 웹 환경에서 널리 사용되는 이미지 형식이 되었다.
손실 압축 알고리즘 - VP9
VP9는 구글이 개발한 오픈 소스 비디오 코덱으로, VP8보다 압축 효율을 높이고 HEVC보다 나은 성능을 목표로 개발되었으며, WebM 형식으로 사용되고 주요 웹 브라우저와 넷플릭스, 유튜브 등에서 지원했으나 AV1의 등장으로 개발이 중단되었다.
데이터 압축 - 해상도
해상도는 1인치당 픽셀 또는 점의 수를 나타내는 지표로, 이미지의 선명도를 결정하며 DPI와 PPI 단위를 사용하고, 높을수록 섬세한 표현이 가능하다.
데이터 압축 - MP3
MP3는 MPEG 표준의 오디오 압축 형식으로, 인간의 청각 심리를 이용하여 음질 저하를 최소화하며 데이터를 압축하고, 1991년에 발명되어 2017년 특허 만료로 퍼블릭 도메인이 되었다.
디지털 신호 처리 - 라플라스 변환
라플라스 변환은 함수 f(t)를 복소수 s를 사용하여 적분을 통해 다른 함수 F(s)로 변환하는 적분 변환이며, 선형성을 가지고 미분방정식 풀이 등 공학 분야에서 널리 사용된다.
디지털 신호 처리 - 디랙 델타 함수
디랙 델타 함수는 원점에서 무한대 값을 갖고 그 외 지점에서 0의 값을 갖는 수학적 개념으로, 분포 또는 측도로 정의되며, 순간적인 충격이나 점 형태 현상 모델링에 활용되고 푸리에 변환, 스케일링, 평행 이동 등의 성질을 가진다.

2. 역사

선형 예측 부호화(LPC)의 역사는 1940년대 노버트 위너의 선형 예측 이론 연구로 거슬러 올라간다. 1960년대 후반, 일본 전신 전화(NTT)의 이타쿠라 후미타다와 사이토 슈조, 그리고 미국의 비슈누 아탈과 만프레드 슈뢰더 등에 의해 음성 분석에 적용되기 시작했다.

이후 LPC 기술은 1970년대와 1980년대를 거치며 비약적인 발전을 이루었으며, VoIP 등 다양한 음성 통신 기술의 기반이 되었다.

2. 1. 초기 연구 (1940년대 ~ 1960년대)

선형 예측은 적어도 1940년대까지 거슬러 올라가는데, 당시 노버트 위너는 잡음 속에 숨겨진 신호를 감지하기 위한 최적의 위너 필터 및 예측기를 계산하기 위한 수학적 이론을 개발했다.^[3]^[4] 그 직후 클로드 섀넌은 통신의 수학적 이론을 통해 일반적인 부호화 이론을 확립했고, 예측 부호화에 대한 연구는 C. 채핀 커틀러,^[5] 버나드 M. 올리버,^[6] 그리고 헨리 C. 해리슨에 의해 수행되었다.^[7] 피터 엘리아스는 1955년에 신호의 예측 부호화에 관한 두 편의 논문을 발표했다.^[8]^[9]

1966년 나고야 대학의 이타쿠라 후미타다와 일본 전신 전화의 사이토 슈조는 최대 우도 추정에 기반한 통계적 접근 방식을 설명했고, 1967년에는 비슈누 S. 아탈, 만프레드 R. 슈로더 그리고 존 버그가 선형 예측기를 음성 분석에 적용하였다. 아탈과 슈로더는 적응 필터 접근 방식을 설명했으며, 버그는 최대 엔트로피 스펙트럼 추정의 원리에 기반한 접근 방식을 설명했다.^[4]^[10]^[11]^[12]

2. 2. 발전과 응용 (1970년대 ~ 현재)

1969년, 이타쿠라와 사이토는 부분 상관(PARCOR) 방식을 소개했고, 글렌 쿨러(Glen Culler)는 실시간 음성 인코딩을 제안했으며, 비슈누 S. 아탈(Bishnu S. Atal)은 미국 음향 학회 연례 회의에서 LPC 음성 코더를 발표했다.^[13] 1971년, 필코-포드(Philco-Ford)는 16비트 LPC 하드웨어를 사용한 실시간 LPC를 시연하여 4개의 장치를 판매했다.^[13] 1970년대에는 비슈누 아탈(Bishnu S. Atal)과 만프레드 R. 슈로더(Manfred R. Schroeder)가 LPC 기술을 발전시켰다.^[13]

1978년, BBN의 아탈과 비스와나스 등은 최초의 가변 비트 전송률(variable bitrate) LPC 알고리즘을 개발했다.^[13] 같은 해, 벨 연구소의 아탈과 만프레드 R. 슈로더(Manfred R. Schroeder)는 인간 귀의 마스킹 특성을 활용하는 심리 음향(psychoacoustic) 부호화 알고리즘을 사용한 LPC 음성 코덱인 적응적 예측 부호화(adaptive predictive coding)를 제안했다.^[14]^[15] 이는 나중에 1993년에 소개된 MP3 오디오 압축 (데이터)(audio compression) 형식에 사용된 지각 부호화(perceptual coding) 기술의 기초가 되었다.^[14] 1985년, 슈로더와 아탈은 코드 여기 선형 예측(Code-excited linear prediction) (CELP)을 개발했다.^[16]

LPC는 VoIP(Voice-over-IP) 기술의 기초가 되었다.^[13] 1972년, ARPA의 밥 칸(Bob Kahn)은 링컨 연구소(Lincoln Laboratory)의 짐 포기, BBN 테크놀로지스(BBN Technologies)의 데이브 월든과 함께 패킷화된 음성 개발을 시작했으며, 이는 결국 VoIP 기술로 이어졌다. 1973년, 링컨 연구소의 비공식 역사에 따르면, 에드 호프스테터가 최초의 실시간 2400 비트(bit)/초(s) LPC를 구현했다. 1974년, 최초의 실시간 양방향 LPC 패킷 음성 통신이 ARPANET을 통해 3500 bit/s로 Culler-Harrison과 링컨 연구소 간에 이루어졌다. 1976년, ARPANET 상에서 3500bit/s의 네트워크 음성 프로토콜에 의해 컬러-해리슨, 정보 과학 연구소, 스탠퍼드 연구소, 링컨 연구소를 연결하여 최초의 LPC 음성 회의가 열렸다.

3. LPC의 원리

LPC는 소스-필터 모델을 기반으로 음성 생성을 모델링한다. 이 모델에서 음성 신호는 성대에서 생성되는 버저(buzzer) 소리(유성음의 경우)와 혀, 입술 등의 움직임으로 인해 추가되는 쉭쉭거리는 소리나 터지는 소리(무성음의 경우)로 구성된다.

LPC는 먼저 포먼트를 추정하고, 이를 음성 신호에서 제거하는 역필터링 과정을 거친다. 이 과정을 통해 남은 신호를 잔차(residue)라고 한다. 잔차 신호, 버즈의 강도와 주파수, 포먼트 정보는 저장되거나 전송될 수 있다. LPC는 이 과정을 반대로 수행하여 음성을 합성하는데, 버즈 파라미터와 잔차를 이용하여 소스 신호를 만들고, 포먼트를 사용하여 필터를 생성한 후, 소스를 필터에 통과시켜 음성을 생성한다.

음성 신호는 시간에 따라 변하므로, LPC는 '프레임'이라는 짧은 구간 단위로 처리된다. 일반적으로 초당 30~50 프레임이 사용되며, 이는 압축률과 음성 품질 사이의 균형을 맞춘 결과이다.

3. 1. 소스-필터 모델

LPC는 음성 신호가 튜브 끝에 있는 버저(유성음의 경우)에 의해 생성되고 때때로 쉭쉭거리는 소리와 터지는 소리(치찰음 및 파열음과 같은 무성음의 경우)가 추가된다는 가정에서 시작된다. 비록 조잡해 보이지만 이 소스-필터 모델은 실제로 음성 생성의 현실에 매우 가까운 근사치이다. 성대(성대 사이의 공간)는 윙윙거리는 소리를 생성하며, 윙윙거리는 소리의 강도(크기)와 주파수(음조)가 특징이다. 성도(목과 입)는 공명을 특징으로 하는 관을 형성한다. 이러한 공명은 생성된 사운드의 포먼트 또는 강화된 주파수 대역을 발생시킨다. 쉭쉭 소리와 펑 소리는 치찰음과 파열음이 나는 동안 혀, 입술, 목의 작용으로 생성된다.

LPC는 포먼트를 추정하고, 음성 신호에서 해당 효과를 제거하고, 남아 있는 버즈의 강도와 빈도를 추정하여 음성 신호를 분석한다. 포먼트를 제거하는 과정을 역필터링(Inverse Filtering)이라 하고, 필터링된 모델링 신호를 빼고 남은 신호를 레지듀(Residue)라고 한다. 윙윙거리는 소리의 강도와 빈도, 포먼트, 잔여 신호를 나타내는 숫자는 다른 곳에 저장하거나 전송할 수 있다. LPC는 프로세스를 반대로 하여 음성 신호를 합성한다. 즉, 버즈 매개변수와 잔여분을 사용하여 소스 신호를 생성하고, 포먼트를 사용하여 필터(튜브를 나타냄)를 생성하고, 필터를 통해 소스를 실행하여 음성을 생성한다.

음성 신호는 시간에 따라 달라지기 때문에 이 프로세스는 프레임이라고 하는 음성 신호의 짧은 부분에서 수행된다. 일반적으로 초당 30~50프레임은 압축률이 좋은 명료한 음성을 제공한다.

3. 2. 분석 및 합성

LPC는 음성 신호가 튜브 끝에 있는 버저(유성음의 경우)에 의해 생성되고 때때로 쉭쉭거리는 소리와 터지는 소리(치찰음 및 파열음과 같은 무성음의 경우)가 추가된다는 가정에서 시작된다. 비록 조잡해 보이지만 이 소스-필터 모델은 실제로 음성 생성의 현실에 매우 가까운 근사치이다. 성대(성대 사이의 공간)는 윙윙거리는 소리를 생성하며, 윙윙거리는 소리의 강도(크기)와 주파수(음조)가 특징이다. 성도(목과 입)는 공명을 특징으로 하는 관을 형성한다. 이러한 공명은 생성된 사운드의 포먼트 또는 강화된 주파수 대역을 발생시킨다. 쉭쉭 소리와 펑 소리는 치찰음과 파열음이 나는 동안 혀, 입술, 목의 작용으로 생성된다.

LPC는 포먼트를 추정하고, 음성 신호에서 해당 효과를 제거하고, 남아 있는 버즈의 강도와 빈도를 추정하여 음성 신호를 분석한다. 포먼트를 제거하는 과정을 역필터링(Inverse Filtering)이라 하고, 필터링된 모델링 신호를 빼고 남은 신호를 잔차(Residue)라고 한다.

윙윙거리는 소리의 강도와 빈도, 포먼트, 잔여 신호를 나타내는 숫자는 다른 곳에 저장하거나 전송할 수 있다. LPC는 프로세스를 반대로 하여 음성 신호를 합성한다. 즉, 버즈 매개변수와 잔여분을 사용하여 소스 신호를 생성하고, 포먼트를 사용하여 필터(튜브를 나타냄)를 생성하고, 필터를 통해 소스를 실행하여 음성을 생성한다.

음성 신호는 시간에 따라 달라지기 때문에 이 프로세스는 프레임이라고 하는 음성 신호의 짧은 부분에서 수행된다. 일반적으로 초당 30~50프레임은 압축률이 좋은 명료한 음성을 제공한다.

3. 3. 프레임 기반 처리

음성 신호는 시간에 따라 변하므로, 선형 예측 부호화 과정은 프레임이라고 하는 짧은 음성 신호 청크 단위로 수행된다. 일반적으로 초당 30~50 프레임은 압축률이 좋으면서도 이해 가능한 음성을 제공한다. 예를 들어, 음성 신호는 수십 밀리초 구간에서 정상을 유지하며 선형 결합으로 잘 표현될 수 있다는 것이 경험적으로 알려져 있다.^[2] 구간

N

의 신호 (

s_1 \sim s_N

)가 선형 결합으로 잘 표현될 수 있다면, 구간 내에서 불변하는 예측 계수

p

개 (

a_i \sim a_p

)와 진폭이 작은 잔차

N

개 (

\varepsilon_1 \sim \varepsilon_N

)로 신호를 변환할 수 있다. 이 구간은 종종 프레임이라고 불린다.^[2] 잔차 시퀀스에 다양한 압축을 적용하여 신호를 더 적은 정보량으로 전달할 수 있다.^[2]

4. LPC 계수 표현

선형 예측 부호화(LPC)는 스펙트럼 엔벨로프 정보를 전송하는 데 자주 사용되므로 전송 오류에 대한 내성이 있어야 한다. 필터 계수를 직접 전송하는 것은 (계수에 대한 정의는 선형 예측 참조) 바람직하지 않은데, 이는 오류에 매우 민감하기 때문이다. 아주 작은 오류라도 전체 스펙트럼을 왜곡시킬 수 있으며, 작은 오류가 예측 필터를 불안정하게 만들 수도 있다.

로그 면적비(LAR), 선 스펙트럼 쌍(LSP) 분해, 반사 계수와 같은 더 발전된 표현 방식이 있다. 이 중 특히 LSP 분해는 예측기의 안정성을 보장하고, 작은 계수 편차에 대해 스펙트럼 오류가 국소적이기 때문에 널리 사용되고 있다.

4. 1. 계수 표현 종류

로그 면적비(LAR), 선 스펙트럼 쌍(LSP) 분해, 반사 계수와 같은 더 발전된 표현 방식이 있다. 이 중 특히 LSP 분해는 예측기의 안정성을 보장하고, 작은 계수 편차에 대해 스펙트럼 오류가 국소적이기 때문에 널리 사용되고 있다.

LPC의 선형 예측 계수는 로그 면적비, 반사 계수/PARCOR 등 수학적으로 등가인 다른 형식으로 표현할 수 있다.^[1]

다양한 계수 표현이 개발된 배경에는 노이즈 내성이 있다. LPC는 부호화 기법이며, 생성된 부호는 종종 노이즈를 가진 전송로(예: 전화)를 통해 전달된다. 그러므로 부호는 전송 오류에 대한 내성이 있어야 한다. 그러나 선형 예측 계수는 오류에 약하기 때문에 아주 작은 오차라도 스펙트럼 전체가 왜곡되고, 심한 경우 작은 오차로 인해 예측 필터가 불안정해지는 경우도 있다. 그러므로 노이즈 내성에 주목한 계수 표현이 개발되어 왔다.^[1]

선 스펙트럼 쌍(LSP) 분해는 예측기의 안정성이 보장된다는 점과, 계수의 작은 변이에 의해 발생하는 스펙트럼의 오차가 국소적이라는 점 등에서 특히 호평을 받고 있다.^[1]

4. 2. LSP 표현의 장점

LSP(선 스펙트럼 쌍) 분해는 예측기의 안정성을 보장하고, 계수의 작은 변이에 의해 발생하는 스펙트럼의 오차가 국소적이라는 점에서 특히 호평을 받고 있다.^[2] 이러한 장점 덕분에 LSP는 휴대전화, 스마트폰, 오디오 부호화, 텔레비전 디지털 방송 방식 등에서 널리 사용되고 있다.^[2] LSP 방식은 2014년에 IEEE 마일스톤에 선정되었다.^[2]

5. 응용 분야

LPC는 음성 부호화 및 음성 합성 분야에서 널리 사용된다.^[17] GSM과 같은 통신 회사의 음성 압축 방식이나, 보안 무선 통신 등에 사용되며, 초기 사례로 미국 정부의 Navajo I이 있다.

LPC 합성은 보코더 구성이나 전자 음악에도 사용된다. 폴 란스키의 notjustmoreidlechatter는 선형 예측 부호화를 사용한 컴퓨터 음악 작품이다.^[18]

LPC 예측기는 Shorten, MPEG-4 ALS, FLAC, SILK 오디오 코덱 등 무손실 오디오 코덱에도 사용된다.^[19]

야마하의 디지털 샘플 방식 신시사이저에서는 파형 압축에 LPC 알고리즘을 사용하였고, 바이올린과 같은 현악기의 음색 분석으로도 관심을 받고 있다.^[19]

5. 1. 음성 부호화 및 합성

LPC는 음성 부호화 및 음성 합성에서 가장 널리 사용되는 방법 중 하나이다.^[17] 일반적으로 음성 분석 및 재합성에 사용된다. 예를 들어, GSM과 같이 통신 회사에서 음성 압축 형태로 사용된다. 또한 음성을 디지털화 및 암호화하여 좁은 음성 채널을 통해 전송해야 하는 보안 무선 통신에도 사용된다. 이에 대한 초기 예시는 미국 정부의 Navajo I이다.

LPC 합성은 가수의 음성에서 추정된 시변 필터에 악기를 여기(excite) 신호로 사용하여 보코더를 구성하는 데 사용될 수 있다. 이는 전자 음악에서 다소 인기가 있다. 폴 란스키는 선형 예측 부호화를 사용하여 유명한 컴퓨터 음악 작품 notjustmoreidlechatter를 만들었다.^[18] 1980년대에 인기를 얻은 교육용 장난감 Speak & Spell에는 10차 LPC가 사용되었다.

5. 2. 음성 압축

LPC는 음성 부호화 및 음성 합성에서 가장 널리 사용되는 방법 중 하나이다.^[17] 음성 분석 및 재합성에 널리 사용되며, GSM 표준과 같이 통신 회사에서 음성 압축 형태로 사용된다. 또한 음성을 디지털화, 암호화하여 좁은 음성 채널을 통해 전송해야 하는 보안 무선 통신에도 사용된다. 이에 대한 초기 예시는 미국 정부의 Navajo I이다.

LPC 합성은 가수의 음성에서 추정된 시변 필터에 악기를 여기 신호로 사용하여 보코더를 구성하는 데 사용될 수 있다. 이는 전자 음악에서 다소 인기가 있다. 폴 란스키는 선형 예측 부호화를 사용하여 유명한 컴퓨터 음악 작품 notjustmoreidlechatter를 만들었다.^[18] 1980년대에 인기를 얻은 교육용 장난감 Speak & Spell에는 10차 LPC가 사용되었다.

LPC 예측기는 Shorten, MPEG-4 ALS, FLAC, SILK 오디오 코덱 및 기타 무손실 압축 오디오 코덱에 사용된다.

5. 3. 무손실 오디오 코덱

LPC 예측기는 Shorten, MPEG-4 ALS, FLAC, SILK 오디오 코덱 및 기타 무손실 오디오 코덱에 사용된다.^[19] FLAC 오디오 코덱에서는 최대 32차 LPC 예측기를 사용하고 있다.

5. 4. 기타

1980년대 인기 있었던 교육용 장난감 Speak & Spell에는 10차 LPC가 사용되었다.^[19]

야마하의 디지털 샘플 방식 신시사이저에서는 파형 압축에 LPC 알고리즘을 사용하여 롬(ROM)에 저장하였다.

6. 예측 부호화

선형 예측 부호화(LPC)는 예측 부호화의 특수한 경우이다. 예측 부호화는 "예측을 이용한 효율적인 부호화"를 통칭하는 용어이다.^[20]^[21] 예측 부호화는 과거 시계열, 추정기, 잔차를 이용하여 원래 신호를 복원하는 방식으로, 변동량이 큰 신호를 작은 잔차 시계열로 변환하여 효율적인 신호 전달을 가능하게 한다.^[23] LPC는 샘플 간의 관계를 선형으로 가정하여 예측을 수행한다.

6. 1. 예측 부호화의 원리

LPC는 선형 예측을 사용한 신호 부호화 기법이다. 이는 과거의 신호 값을 바탕으로 현재 값을 예측하고, 실제 값과 예측 값의 차이인 잔차를 부호화하는 방식이다.^[20]^[21]

예측 부호화에서는 예측기(predictor)가 과거의 시계열 데이터를 기반으로 현재 값을 추정한다. 예측기가 완벽하지 않기 때문에 실제 값과 예측 값 사이에는 오차, 즉 잔차가 발생한다. 반대로, 잔차를 알면 정확한 실제 값을 알 수 있다. 즉, 과거 시계열, 예측기, 잔차가 있으면 예측된 값에 잔차를 더하여 실제 값을 복원할 수 있다.^[22]

부호화 및 복호화 과정은 다음과 같다.

부호화: $e_t = x_t - predictor(x_{$
복호화: $\hat{x}_t = predictor(\hat{x}_{$

이처럼 예측을 통해 신호를 잔차로 부호화하고, 다시 예측을 통해 잔차를 신호로 복호화하는 방식이 예측 부호화이다. 변동이 큰 신호를 예측 부호화를 통해 작은 잔차 시계열로 변환하고, 이 잔차 시계열에 추가적인 부호화나 압축을 적용하여 전송하면 효율적으로 신호를 전달할 수 있다.^[23]

LPC는 예측 부호화 중에서 샘플 간의 관계를 선형으로 가정한 것이다. 즉, 예측기를 다음과 같이 표현할 수 있다:

predictor(x_{

6. 2. LPC와 예측 부호화

선형 예측을 사용한 신호 부호화인 선형 예측 부호화(LPC)는 특정 시점의 신호를 과거 신호들의 선형 결합으로 예측하고, 예측 계수와 예측 잔차로 부호화하는 기법이다. LPC는 샘플 간의 관계를 선형으로 가정하며, 예측기는 다음과 같이 표현된다.^[23]

:

predictor(x_{

참조

_[1] 서적 Speech processing: a dynamic and optimization-oriented approach https://books.google[...] Marcel Dekker
_[2] 서적 Fundamentals of Speaker Recognition Springer-Verlag
_[3] 간행물 The history of linear prediction https://www.research[...]
_[4] 간행물 Voice pitch changing by Linear Predictive Coding Method to keep the Singer's Personal Timbre https://quod.lib.umi[...] Michigan Publishing
_[5] 특허 Differential quantization of communication signals
_[6] 간행물 Efficient coding Nokia Bell Labs
_[7] 간행물 Experiments with linear prediction in television
_[8] 간행물 Predictive coding I
_[9] 간행물 Predictive coding II
_[10] 간행물 Theoretical consideration of the statistical optimum recognition of the spectral density of speech 1967-01
_[11] 간행물 Predictive coding of speech
_[12] 간행물 Maximum Entropy Spectral Analysis
_[13] 간행물 A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol https://ee.stanford.[...] 2010
_[14] 서적 Acoustics, Information, and Communication: Memorial Volume in Honor of Manfred R. Schroeder Springer 2014
_[15] 서적 ICASSP '78. IEEE International Conference on Acoustics, Speech, and Signal Processing 1978
_[16] 서적 ICASSP '85. IEEE International Conference on Acoustics, Speech, and Signal Processing 1985
_[17] 간행물 Application of MFCC in Text Independent Speaker Recognition https://pdfs.semanti[...] 2019-10-18
_[18] 웹사이트 More Than Idle Chatter http://paul.mycpanel[...] 2024-06-02
_[19] 간행물 Stradivari Violins Exhibit Formant Frequencies Resembling Vowels Produced by Females http://savartjournal[...] 2012-06-14
_[20] 문서
_[21] 문서
_[22] 문서
_[23] 문서
_[24] 서적 Speech processing: a dynamic and optimization-oriented approach https://books.google[...] Marcel Dekker
_[25] 서적 Fundamentals of Speaker Recognition Springer-Verlag

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

선형 예측 부호화
개요
유형	음성 분석 및 부호화 기술
분야	음성 처리
사용 목적	음성 합성, 음성 인식, 음성 부호화
기술적 특징
원리	선형 예측 모델 기반
분석 방법	음성 신호의 스펙트럼 포락선 추정
파라미터	예측 계수 이득 피치
장점	계산 효율성 비교적 적은 파라미터로 음성 특징 표현 가능
단점	고품질 음성 합성에는 한계가 있음 배경 잡음에 민감함
활용 분야
음성 부호화	휴대 전화 VoIP
음성 합성	TTS 시스템
음성 인식	음성 인식 시스템의 특징 추출
관련 기술
변형	CELP LSP
관련 알고리즘	레빈슨-더빈 알고리즘 슈르 알고리즘